Más allá de las palabras: Comprender la tokenización y la prueba del chicle

La arquitectura oculta del lenguaje

Los modelos de lenguaje grandes (LLMs) no 'leen' el texto como lo hacemos los humanos. Mientras nosotros vemos letras y palabras, los modelos procesan la información en fragmentos numéricos llamados tokens. Comprender esta abstracción es el primer paso para dominar la ingeniería de prompts y el diseño de sistemas.

La prueba del chicle

¿Por qué un modelo de lenguaje tiene dificultades para invertir las letras de la palabra "lollipop", pero logra hacerlo instantáneamente cuando se le pide invertir "l-o-l-l-i-p-o-p"?

El problema: En la palabra estándar, el modelo ve un único token que representa toda la palabra. No tiene un mapa claro de las letras individuales dentro de ese token.
La solución: Al separar la palabra con guiones, obligas al modelo a tokenizar cada letra individualmente, proporcionando la visión detallada necesaria para realizar la tarea.

Principios fundamentales

Ratio de tokens: Como regla general, 1 token equivale aproximadamente a 4 caracteres en inglés, o alrededor de 0,75 de una palabra.
Ventanas de contexto: Los modelos tienen un tamaño fijo de 'memoria' (por ejemplo, 4096 tokens). Este límite incluye tanto tus instrucciones como la respuesta del modelo.

Base frente a ajustado por instrucciones

Modelos base LLM: Predecir la siguiente palabra más probable basándose en grandes conjuntos de datos (por ejemplo, "¿Cuál es la capital de Francia?" podría ir seguido de "¿Cuál es la capital de Alemania?").
Modelos LLM ajustados por instrucciones: Ajustados mediante Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) para seguir comandos específicos y actuar como asistentes.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?

A) 3,000 tokens

B) 750 tokens

C) 12,000 tokens

Question 2

Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?

A) It is faster at generating text.

B) It uses fewer tokens.

C) It is trained to follow specific tasks and dialogue formats.

Challenge: Token Estimation

Apply the token ratio rule to a real-world scenario.

You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.

Step 1

Estimate the number of tokens for a single daily report.

Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$

Step 2

Calculate the estimated cost to process one daily report.

Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$